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摘 3E: 在 信息 过 载 的 背景 下 ， 如 何 从 拥有 共同 主题 的 多 篇 文档 中 挖掘 并 组 织 核心 概念 及 其 语义 连接 已 成 为 当前 开放 
式 信息 抽取 任务 中 的 一 项 重要 挑战 。 为 此 ， 提 出 了 一 个 基于 开放 域 抽取 的 多 文档 概念 图 构建 模型 。 首 先 基于 预定 主题 
挖 据 主 题词 ， 通 过 改进 的 TF-IDF. 算法 对 文档 进行 排序 ; 然后 通过 共 指 消解 、 篇 章 权 重 计算 、 开 放 域 抽取 等 一 系列 的 方 
法 从 多 篇 文章 中 机 取出 大 量具 有 事实 表达 能 力 的 三 元 组 实例 。 为 去 除开 放 域 方法 本 身 的 噪声 以 及 提升 信息 抽取 的 准确 
率 ， 提 出 一 种 事实 过 滤 算 法 。 通 过 该 算法 可 有 效 提取 置信 度 高 且 具 有 良好 语义 兼容 性 的 显著 事实 知识 集合 ， 并 构成 多 
个 概念 子 图 。 最 后 ， 将 不 同 子 图 中 等 价 的 概念 以 及 关系 进行 合并 ， 形 成 一 张 具有 主题 表达 能 力 的 连通 概念 图 。 通 过 在 
Signal Media 新 闻 数 据 集 上 进行 验证 ， 实 验 结果 表明 ， 所 提出 的 模型 能 够 跨 文档 挖 据 并 有 效 组织 与 特定 主题 相关 的 关 
键 信息 ， 形 成 的 概念 图 在 主题 概念 覆盖 率 、 事 实 知识 的 兼容 性 等 指标 上 均 取 得 了 较 好 的 效果 。 除 此 之 外 ， 该 模型 对 于 
自动 文档 摘要 的 应 用 也 具有 重要 的 参考 价值 。 
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Abstract: In the background of information overload, this is challenging to mine and organize meaningful concepts and their 
semantic connections from a set of related documents under the same topic in open information extraction. Thus, this paper 
proposed a multi-document conceptual graph model based on open-domain information extraction. Firstly, documents were 
ranked according to the improved TF-IDF weight of extracted topic words under the predefined topics, then the model relayed 
on a serious of methods, including coreference resolution, weight computation, open-domain information extraction method to 
extract numerous representative subject-predicate-object triples from multiple documents. For filtering out the noise of open- 
domain information approach itself and improving the accuracy of information extraction, this paper presented a fact filtering 
algorithm to retain only the most salient, compatible facts as well as a form of multiple conceptual subgraphs. Finally, in 
combined with the equivalent concepts and relationships across different subgraphs to connect into a fully connected conceptual 
graph with expressive topic ability. Experiments on Signal Media dataset illustrated that the proposed model has the ability to 
discern and effectively group the key information corresponds to specific topics within and across documents, and formed 
conceptual graph outperforms state-of-the-art the algorithms in terms of the coverage rate of topic concepts as well as the 
compatible facts. Besides, this model also has the important significance for the automatic abstract on. 
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质 与 语义 关系 起 到 了 重要 的 推动 作用 。 然 而 ， 如 何 从 大 规模 、 
主题 信息 零散 分 布 的 文本 集合 中 获取 重要 的 主题 概念 以 及 语义 

随 着 大 数据 时 代 的 不 断 演进 与 发 展 , 通 过 报纸 .广播 电视 、 关联 ， 己 成 为 当前 信息 抽取 任务 中 的 一 项 重要 挑战 。 
互联 网 、 微 博 、 微 信 等 媒体 渠道 发 布 的 以 及 用 户 所 创造 的 信息 文献 [1] 提 出 多 文档 摘要 技术 ,其 由 在 于 将 多 篇 拥有 共同 主 
急剧 增长 ， 自 由 文本 数据 作为 其 中 的 典型 代表 ， 为 揭示 信息 实 。 题 的 文章 的 大 意 提取 出 来 ， 形 成 简练 可 读 、 易 于 用 户 理解 的 短 
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文本 。 文献 [2] 基 于 LexRank 算法 提出 多 文档 摘要 自动 化 抽取 方 
法 ， 该 方法 可 作为 概括 式 摘要 的 典型 代表 。 随 后 ， 文 献 [3] 利 用 
申 经 网 络 模型 对 文本 中 心 句 进行 建 模 ， 实 现 了 对 摘要 语句 的 进 
一 步 压缩 。 文 献 [ 和 提出 了 潜在 狄 利克 雷 分 布 Clatent Dirichlet 
allocation, LDA) 的 主题 模型 ， 能 够 从 大 规模 文本 数据 集中 挖掘 
隐 含 的 主题 信息 ， 但 需要 手动 指定 主题 的 数目 。 文 献 [5] 提 出 了 
层次 潜在 狄 利克 雷 分 布 Chierarchical latent Dirichlet allocation, 
HLDAO 的 主题 模型 , 解决 了 上 述 缺 陷 。 文献 [6] 充 分 利用 词 频 、 
主题 语句 位 置 、 主 题词 等 特征 ， 设 计 出 一 种 自动 文本 摘要 抽取 
系统 。 文 献 [7] 提 出 了 一 种 评论 式 摘 要 ， 在 保留 评论 人 总 体 观 点 
的 情况 下 ， 同 时 反映 出 了 评论 的 多 样 性 。 然 而 自 摘 要 的 方法 在 
主题 概念 覆盖 率 〈 如 融合 零散 的 主题 细节 信息 )、 准 确 度 等 方面 
均 表 现 一 般 ， 优 选 主题 概念 、 关 联 信息 ， 融 合生 成 流畅 且 有 意 
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义 的 多 文档 摘要 一 直 以 来 都 是 信息 抽取 领域 所 研究 的 关键 问题 。 


文献 [8] 提 出 了 开放 域 抽取 方法 ,该 类 方法 以 语句 依存 分 析 为 基 
， 能 够 适应 无 标注 的 非 限定 领域 的 大 规模 文本 的 开放 式 信息 
抽取 任务 。 华 盛 顿 大 学 在 信息 抽取 领域 , 研究 出 了 KnowltAll、 
TextRunner, WOE, ReVerb, R2A2 等 一 系列 具有 里 程 碑 意义 的 
二 元 OIE (open information extraction) 系统 四， 其 最 主要 的 优 
势 在 于 能 够 在 兼顾 上 下 文 全 局 信息 的 同时 ， 对 语 料 中 的 二 元 浅 
层 实 体 关 系 进 行 高 效 抽取 。 然 而 ， 由 于 开放 域 方法 主要 依赖 于 
开放 模板 、 语 句 的 依存 关系 等 特征 ， 并 不 能 较 好 地 识别 出 所 抽 
取 的 事实 是 否 能 够 准确 地 表达 出 语句 的 含义 ,并 且 难 以 跨 语 句 、 
跨 文 要 有 效 的 连接 这 些 事实 知识 。 文 献 [10] 采 用 一 种 逻辑 约束 
的 方法 ， 实 现 了 跨 文 档 组 织 事实 知识 的 目的 ， 但 由 于 该 规则 仅 
限于 有 限 关 系 的 应 用 场景 ， 未 能 保证 所 连接 的 事实 表达 是 有 意 
义 的 ， 并 且 能 够 覆盖 重要 的 主题 信息 。 

在 开放 式 信 息 抽 取 任 务 中 还 有 一 类 典型 的 方法 ， 即 开放 式 
实体 关系 抽取 方法 。 该 方法 主要 基于 以 下 假设 : 若 已 知 实体 间 
存在 指定 的 语义 关系 ， 则 所 有 包含 这 两 个 实体 的 句子 都 隐 式 地 
表达 了 这 种 关系 。 开 放 式 实体 关系 抽取 方法 0 主要 是 通过 借助 
外 部 领域 无 关 的 知识 库 (如 DBPedia, Freebase, YAGO, 
wikipedia 文本 库 等 )， 将 高 质量 的 实体 关系 映射 到 知识 库 语 料 
中 ， 然 后 根据 文本 对 齐 方 法 从 中 获取 关系 抽取 训练 数据 (该 过 
程 也 可 被 视 为 数据 标注 过 程 )， 并 训练 模型 实现 关系 抽取 任务 。 
然而 该 类 方法 主要 存在 以 下 两 个 方面 的 问题 : a) 训练 语 料 存在 
较 多 噪声 ; b) 标注 的 实体 关系 类 型 有 限 。 针 对 前 者 问题 ， 远 程 
监督 (distant supervision) 抽取 方法 自 提出 以 来 就 受到 了 业内 专 
家 的 普遍 关注 , 并 且 取 得 了 良好 的 性 能 , 文献 [12] 针 对 传统 统计 
模型 在 特征 抽取 过 程 中 出 现 的 错误 、 错 误 传播 ， 以 及 深度 学 习 
方法 中 依靠 单一 词 向 量 来 学 习 特征 的 不 足 ， 提 出 了 一 套 基于 卷 
积 神经 网 络 与 关键 词 策 略 相 结合 的 实体 关系 抽取 方法 ， 实 验 表 
明 该 方法 有 利于 提升 抽取 结果 的 准确 率 。 文 献 [13] 针 对 数据 标 
注 错 误 的 问题 ， 采 用 多 示例 学 习 的 方式 从 训练 集中 抽取 置信 度 
高 的 训练 样 例 来 训练 模型 ， 对 于 算法 性 能 的 提升 起 到 了 一 定 的 
成 效 。 针 对 后 者 问题 ， 目 前 更 多 的 实体 关系 抽取 方法 [ 鸭 党 试 男 
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向 大 规模 的 开放 语 料 ， 其 所 包含 的 关系 类 型 将 更 加 全 面 。 

针对 开放 式 信息 抽取 任务 中 难以 跨 语 句 、 跨 文档 组 织 事实 
知识 信息 以 及 标注 实体 关系 类 型 较为 有 限 这 两 方面 问题 ， 本 文 
提出 了 一 套 基于 开放 域 抽取 的 多 文档 概念 图 构建 模型 ， 该 模型 
依赖 于 一 系列 NLP Cnatural language processing) 方法 以 及 工具 ， 
通过 概念 图 的 形式 表现 出 特定 主题 下 显著 的 实体 、 概 念 ， 以 及 
它们 之 间 的 关系 ， 实 现 了 跨 文 档 挖掘 并 组 织 主题 关键 信息 的 
的 ， 对 于 进一步 研究 该 主题 的 发 展 脉络 以 及 自动 文档 摘要 的 应 
具有 重要 的 参考 价值 。 


1 ”多 文档 概念 图 构建 模型 


构建 基于 多 文档 语义 链接 的 概念 图 模型 主要 包括 四 个 主要 
任务 ， 分 别 为 文档 排序 、 概 念 及 关系 抽取 、 事 实 过 滤 、 合 并 等 
价 概念 及 关系 ， 以 下 将 详细 进行 前 述说 明 。 
1.1 文档 排序 
于 预定 义 的 主题 ， 通 过 Stanford CoreNLP 系统 05 挖 掘 文 
档 中 的 命名 实体 、 动 名 词 、 名 词 、 事 件 名 称 等 作为 候选 关键 词 ， 
通过 改进 的 TF-IDF 算法 计算 它们 对 主题 的 重要 程度 。 与 传 
统 的 TF-IDF 算法 相 比 ， 该 算法 不 仅 降低 了 生僻 词 被 误 识 为 主 
题词 的 概率 ， 而 且 考 虑 了 关键 词 在 不 同 主题 间 的 分 布 情况 。 
计算 公式 为 
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TFJDF = £f (w,| D  *idf(w, k,k*) (1) 
其 中 : gfQw|D p 表示 词 频 (term frequency)， 用 于 衡量 关键 词 
在 特定 主题 所 有 文档 中 的 重要 程度 jgqf(w,k,k"*) 表示 逆 文 档 频 


率 (inverse document frequency)， 用 于 衡量 关键 词 在 所 有 文档 
中 的 通用 程度 ， 并 不 限于 特定 的 主题 。 
c(w) 
tf (w|D)-z1-«1 2 
if w,|Dp =1+ PST Q) 
r f(w,k) 
df (w,k, k^) = —log(1 3 
idf (w,k, k^) = —log( fo * fos G) 


其 中 : w 为 候选 关键 词 ，k 为 特定 的 主题 ，|D| 表 示 大 下 的 文 
档 总 数 ，zd DT) 表示 |D| 中 的 单词 总 数 ，c(w) 表示 w TE| D | 中 
出 现 的 次 数 ，f(w,k) 表 示 w 在 |D| 中 的 频率 ; p 表示 除外 的 
RERED: pw) 表示 w Ep | 中 的 频率 。 

文档 权重 的 计算 公式 如 下 : 


n(diey) 
weight(k,d) = > w, DF (4) 


其 中 : dk FRX: nde) 表示 d 中 包含 的 关键 词 总 数 ; 
wm 表示 4q 中 第 ;个 关键 词 的 TF-IDF 值 ， 可 根据 式 (1) XE 
行 计算 。 
1.2 概念 及 关系 抽取 

概念 及 关系 抽取 的 主要 任务 是 从 同一 主题 下 的 多 篇 文档 中 
抽取 出 大 量具 有 事实 表达 能 力 的 三 元 组 实例 ， 主 要 包括 共 指 消 
解 、 篇 章 权 重 计算 、 开 放 域 抽取 三 个 子 任务 。 

1) 共 指 消解 ”同一 篇 文章 中 的 指 代 类 型 主要 表现 为 人 称 指 
代 、 指 示 性 指 代 、 名 词 短语 指 代 以 及 事件 指 代 。 本 文采 用 斯 坦 


福 大 学 研发 的 自然 语言 处 理 的 包 一 一 Stanford CoreNLP 系 
统 对 单 篇 文档 中 的 共 指 代词 进行 替换 ， 目 的 在 于 提高 文档 语句 
的 可 读 性 ， 以 利于 后 续 的 开放 域 抽取 任务 。 

2) 篇 章 权 重 计算 TextRank 算法 09 的 基本 思想 来 源 于 
Google 著名 的 PageRank 算法 ， 通 过 将 文本 切 分 为 若干 语义 单 
元 并 建立 图 模型 ,利用 投票 机 制 对 文本 中 的 重要 成 分 进行 排序 ， 
可 用 于 单 篇 文档 的 关键 词 提 取 、 自 动 摘 要 等 任务 。 本 文采 用 
TextRank 算法 计算 文档 中 不 同 语句 的 得 分 ， 并 将 高 分 语句 作为 
文档 的 主题 句 。 

3) 三 元 组 实例 抽取 ”传统 的 信息 抽取 模式 需要 限定 领域 以 
及 语义 单元 的 类 型 ， 无 法 应 用 于 未 预先 定义 概念 关系 类 型 的 自 
由 文本 语 料 。 因 此 ， 可 通过 华盛顿 大 学 研发 的 新 一 代 OLLIE 


Copen language learning for information extraction) 系统 外 对 文 
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Support in groups) 

F8: 0.92 (groups; are; less apt to be registered to vote) 

例句 3 是 对 例句 2 进行 共 指 消 解 处 理 后 的 结果 ， 原 句 中 划 
线 部 分 的 That 被 替换 成 了 The hypothetical contest, her 被 替换 
成 了 Hillary Clinton。 相 应 的 ，That 指 代 所 对 应 的 三 元 组 实例 由 
F3 变 成 了 F6, 其 置信 度 由 原来 的 0.45 提升 到 了 0.95; her 指 代 
所 对 应 的 三 元 组 实例 FA, 经 共 指 消解 处 理 后 的 置信 和 度 由 0.67 提 
升 到 了 0.92. 
13 ”事实 过 滤 

OLLIE 系统 易 受 依存 分 析 错 误 的 影响 ,产生 无 信息 量 或 错 
误 的 三 元 组 实例 。 与 此 同时 ， 多 篇 文档 中 重复 语义 的 语句 会 产 
生 一 定 比 例 的 、 元 余 的 三 元 组 实例 。 针 对 以 上 两 方面 的 问题 ， 
本 文 提 出 一 套 事实 过 滤 算 法 ， 目 的 是 为 了 过 滤 掉 与 主题 核心 内 
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档 主题 句 中 的 三 元 关系 进行 抽取 。 抽 取 的 三 元 组 实例 可 表示 为 


容 无 关 并 且 低 置 信 度 的 候选 三 元 组 实例 ， 只 保留 那些 置信 度 较 


(subject, predicate, object) 的 形式 。 其 中 ，subject、object 表示 


不 含 撕 套 结构 的 两 个 实体 或 概念 ，predicate 表示 它们 之 间 的 关 
系 ， 主 要 以 不 含 嵌 套 关 系 或 修饰 短语 的 动词 及 动词 短语 为 主 ， 
对 于 复杂 的 长 句 , 通过 OLLTE 系统 会 抽取 出 一 个 或 多 个 具有 不 
同 置信 度 的 关系 对 。 下 面 通过 三 个 例句 进行 解释 说 明 。 


Fa 


例句 1:82 percent of leaned Democrats say Registered voters'd 
support a clear Clinton, while 76 percent of leaned Republicans say 
Registered voters'd back a clear Clinton vs. Trump, were Registered 
voters the party nominees. 

F1: 0.97 (76 percent of leaned Republicans; say; Registered 
voters'd back a clear Clinton vs. Trump) 

F2: 0.94 (82 percent of leaned Democrats; say; Registered 
voters'd support a clear Clinton) 
在 例句 1 中， 通过 OLLE 系统 可 抽取 出 置信 度 为 0.97 的 
三 元 组 实例 Fl 和 置信 度 为 0.94 的 三 元 组 实例 F2。 置 信 度 越 高 ， 
说 明 三 元 组 实例 所 表达 的 事实 知识 越 准 确 。 


例句 2: That compares to a clear Clinton lead among all adults, 


LI 


51-39 percent, indicating her broad support in groups that are less 
apt to be registered to vote, such as young adults and racial and 
ethnic minorities. 

F3: 0.45 (That; compares; to a clear Clinton lead among all 
adults) 

F4: 0.90 (51-39 percent; indicating; her broad support in 
groups) 

F5: 0.67 (groups; are; less apt to be registered to vote) 


例句 3: The hypothetical contest compares to a clear Clinton 


lead among all adults, 51-39 percent, indicating Hillary Clinton 
broad support in groups that are less apt to be registered to vote, 
such as young adults and racial and ethnic minorities. 

F6: 0.95 (The hypothetical contest; compares; to a clear 
Clinton lead among all adults) 


F7: 0.90 (51-39 percent; indicating; Hillary Clinton broad 


高 且 具 有 良好 语义 兼容 性 的 显著 事实 知识 信息 。 该 算法 将 三 元 

组 实例 的 过 滤 问 题 转 换 为 整数 规划 问题 ， 目 标 方程 及 相应 的 约 
束 条 件 如 下 所 示 : 

max a^ x - [f y (5) 

st Ty < no (0) 

x, < min(y;.y;] (7) 

Vi< j,i, j e(L..M) (8) 

k - (2M -i(i-1)/24 j-i (9) 

x y; e (0,1) vi € {1,..., M}, k (10) 


HP: xeg": yeg": N=(M+DM -2/24105 T - (t.t) 
为 包含 y 个 元 素 的 三 元 组 实例 集合 ; 1,1) eT CL je Mig j) 
表示 集合 中 的 任意 两 个 三 元 组 实例 y Ar 的 指示 变量 ， 即 : 
WR y 为 真 ，z 被 保留 ， x 同样 为 指示 变量 ， 表 示 与 1 之 间 
的 兼容 性 ， 即 : 如果 x 为 真 ， 这 时 y=1，y, 5l, r 和 1 均 被 保 
Hi. BE, 所 表述 事实 的 置信 和 度 ，n 为 概念 图 中 的 三 元 组 
实例 个 数 ， 该 值 可 由 用 户 进行 设置 ， 在 算法 所 生成 的 三 元 组 实 
例 集合 中 会 包含 不 大 于 n 个 数 的 三 元 组 实例 。 
ax, AK t, 和 + 的 语义 兼容 性 ,其 计算 公式 如 下 : 


a, — sim(t,t,) - y s, * n], (11) 


其 中 : s, AC t, 和 + BR DORMI 要 通过 ADW Calign 


HT 


Lu 
[us 


disambiguate and walk) 模型 U7 进行 计算 ; l, AE t, 和 + 的 字画 


相似 度 ， 主 要 通过 Levenstein 距离 公式 进行 计算 ; y 为 比例 系 


No 表示， Ea, 计算 中 所 占 的 比例 ; 表示 所 占 的 比例 ,并 


且 y+n=1。 

为 了 减 小 计算 负载 ， 方 法 中 引入 了 滑动 窗口 机 制 ， 即 随 着 
滑动 窗口 的 移动 ,每 次 只 比较 窗口 内 未 重复 计算 的 三 元 组 实例 ， 
计算 复杂 度 由 OCM?) 降 为 O(AWM) 。 其 中 : AW =2W — step -1 5 


录用 定稿 
W 为 窗口 大 小 ; step 为 滑动 步 长 。 


1.4 合并 等 价 概念 及 关系 


个 概念 子 图 中 等 价 的 概念 以 及 关系 。 
规则 1 同 义 概念 具 
有 明显 的 特 


前 任务 的 难点 在 于 概念 指称 的 多 样 性 ， 
能 存在 较 大 噪声 。 因 此 ， 本 文 提出 以 下 规则 来 合并 多 


BK 潘 ， 


以 及 对 概念 关系 


等 价 性 。 同 义 概念 在 词汇 结构 上 具 
征 , 例如 Billionaire Donald Trump. Donald Trump. 


Donald John Trump. Trump 都 指向 同一 人 物 。 对 于 命名 实体 ， 


确 链接 到 同一 指称 对 象 。 


可 借助 于 搜索 引擎 强大 的 实体 链接 能 力 ， 检 查 它们 是 否 


规则 2 ”相似 的 概念 具有 等 价 性 。 
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Iran nuclear ( £* Bj] fZ [3] ii). Volkswagen scandal( 大 众 汽车 丑闻 )、 
(美国 总 统 选 举 )、Sino-Soviet 
, 根据 本 文 1.1 节 中 的 式 (4)， 


United states presidential election 


作 ) 五 个 


cooperation (中 苏 合 


主题 


在 每 个 主题 中 选取 前 100 篇 文档 


(单位 : 
Di; Di, Di (i 为 指定 主题 ，] 
数据 集 来 测试 本 文 模型 的 性 能 。 


能 够 准 


主要 采用 ADW 模型 4， 


它 依赖 于 WordNet 词 
语义 指纹 ， 并 通过 Cosine、 
种 方法 计算 两 个 概念 指纹 间 的 相似 性 。 
规则 3 语义 重合 的 概念 具有 等 价 
出 的 语义 重合 度 计算 公式 。 该 度 
结构 ， 通 过 
计算 。 


YE. EER) 
量 方法 依赖 于 WordNet 的 分 类 


， 通 过 执行 随机 游 走 可 获得 概念 对 应 的 
Weighted Overlap. Top-k Jaccard = 


文献 [18] 提 


过 将 两 个 概念 到 根 节点 的 路 径 1 


长 度 转换 为 信息 量 进行 


过 OLLIE 系统 抽取 的 关系 描述 中 存在 长 尾 关 键 词 以 及 


噪声 。 为 保证 识别 的 准确 度 ， 
专家 标注 者 来 完成 ， 具 体 包 括 : 
词 重合 度 、 连 接 概 念 的 一 致 性 
若干 等 价 关系 对 ， 
有 一 个 概念 是 
所 提出 的 : 


等 价 关 系 的 标注 工 
a) 标注 者 要 和 
等 依据 ， 在 多 
结合 它们 所 连接 的 概念 等 价 关 系 中 至 少 
相同 或 等 价 的 ) 完成 合并 任务 ; b) 根据 文献 [1] 中 
一 个 良好 的 概念 图 最 多 不 应 超过 25 个 概念 , 并 且 应 


作 主 要 由 NLP 
背景 知识 、 关 键 
个 概念 子 图 中 标注 


具有 连通 性 ， 因 此 ， 如 果 最 大 概念 子 图 


义 新 的 语义 关系 标签 


所 连接 的 概念 数量 未 达 
到 25 个 , 且 多 个 子 图 未 形成 连通 , 允许 标注 者 依 
(最 多 不 超过 3 个 ), 使 子 图 
连接 ， 构 成 一 张 连通 的 概念 图 。 新 的 关系 标签 可 


背景 知识 定 
间 的 概念 形成 
依据 概念 间 的 


基本 关系 进行 定义 ， 如 施 事 关系 、 


拥有 关系 、 


的 关系 、 主 观 


关系 等 。 为 难免 单个 标注 者 在 合 
的 过 程 中 所 产生 


等 价 概念 以 及 合成 语义 关系 


致 性 检验 。 


2 ”实验 验证 与 分 析 


2.1 实验 数据 
Signal Media 收集 的 新 闻 报 道 
通 过 Reuters 发 布 的 


计 1 000 000 篇 英文 文档 ， 其 中 
篇 博客 ， 每 篇 文档 平均 拥有 39 个 句子 、 


(document understanding conference) 标准 语 料 09 中 ， 同 一 个 主 


记录 了 2015 年 9 一 10 月 


E 
Chttp://research.signalmedia.co/newsirl6/signal-dataset.htm), $ 
包含 734 488 篇 新 闻 、265 512 


的 片面 性 认 知 ， 上 述 任务 至 少 需要 由 两 个 以 上 
者 配合 完成 ， 其 标注 结果 将 通过 Kappa 系数 进行 一 


i 


bs 热 点 新 


1266 个 单词 。 在 DUC 


题 下 大 约 包含 25~40 篇 文档 , 而 本 实验 随机 抽取 10 000 篇 作为 


研究 语 料 , 其 中 包含 734 篇 新 闻 ( 
26.6%), 


5 73.4%) 和 266 篇 博客 ( 占 
语 料 共 分 为 Syria refugee crisis. (叙利亚 战争 危机 )、 


所 示 。 
表 1 


Table 1 Datasets us 


实验 数据 集 的 


实验 数据 集 


， 在 其 


<i<S,i 


中 随机 选取 文档 进行 分 
析 ， 生 成 如 下 规模 的 数据 集 : 5. 15, 25, 35, 45, 55, 65 和 75 
篇 )， 并 将 数据 集 命名 为 : Di. Di, Di» Di» Di» 
N* )， 通 过 分 析 上 述 


ed in experiments 


\ 体 情况 如 表 1 


主题 名 称 文档 个 数 单 文档 大 小 标准 差 候选 主题 词 个 数 
叙利亚 战争 危机 100 1715+614 1.51 654 
伊朗 核 问题 100 1069+537 — 0.56 429 
大 众 汽车 丑闻 100 999+326 0.54 598 
美国 总 统 选举 100 1175+207 1.26 772 
中 苏 合作 100 768-122 0.32 280 
2.2 评价 指标 
下 面 将 从 主题 概念 覆盖 率 、 概 念 图 连通 性 、 概 念 图 可 读 性 、 
模型 运行 时 间 以 及 对 比 算法 五 个 方面 对 本 文 所 提出 的 概念 图 模 


主题 概念 覆盖 率 。 


所 占 的 百分比 ， 计 算 公式 为 
其 中 : 为 概念 图 中 的 概念 ， 


concept 


法 计算 得 到 的 主题 概念 的 数量 。 


型 进行 全 面 分 析 ， 其 中 涉及 的 评价 指标 如 下 : 
a) 表示 正确 


由 取 的 主题 概念 在 概念 


Wheme 


concept 


AM n 


theme 


b) Kappa 系数 。 用 于 对 标注 结果 的 一 致 性 
为 
B 
1-P 


(12) 


随机 森林 算 


检验 ， 计算 公 式 


(13) 


其 中 : Pp、P 分别 为 不 同 标注 结果 的 观察 一 致 率 与 机 遇 一 致 率 ; 


P -P 3SE Es — SORS s 


1- 忆 为 非 机 遇 一致 率 。 


c) ROUGE 评测 标准 。 一 种 基于 召回 率 的 相似 性 度量 方法 ， 


主要 包括 ROUGE-N、ROUGE-L、ROU 
ROUGE-N 表示 基于 N-gram 的 


tk 现 性 统计 ， 其 


GE-S 等 评价 指标 。 
准确 率 


ROUGE - N,、 召 回 率 ROUGE - N, ~ F (Ë ROUGE - N, 的 计算 
公式 分 别 为 
X Count raren (8 ri am,) 
ROUGE m N, _ Se{ct_summary} gram, eS 14) 
X Count( gram, ) 
Se(ct . summary) gram, eS 
È, Count, (gram,) 
ROUGE — N, _ Se( gt. summary] gram, eS (15) 
x Count( gram, ) 
Se(gt. summary] gram, ES 
ROUGE- N, - 2X ROUGE -N, x ROUGE - Na (16) 


ROUGE — 


N, x ROUGE - N, 


201811.00156v1 
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C 


其 中 : n 表示 N-gram 词 元 共 现 的 长 度 ; 
表示 在 生成 摘要 中 出 现 的 N-gram, gram, € gt. summary 表示 
在 标准 摘要 中 出 现 的 N-gram; Count, „an (gram, ) 表示 在 生成 摘 
要 和 标准 摘要 共 现 的 N-gram 数目 。 
ROUGE-L 表示 基于 最 长 公共 子 序 列 (LCS ) 的 共 现 率 统计 ， 
其 准确 率 p. HEIDE RV FM ,的 计算 公式 分 别 为 


gram, ect. summary 


p 224 650 (17) 
Cs n 
padai A (18) 
CS m 
2 
Fa = a +E DRs Fs (19) 


Rs t B Dh, 
其 中 : ZCS(c,C) 表示 参考 摘要 与 系统 摘要 中 LCS 的 并 集 ; 


P 二] E - DD 44 
p= 为 衡量 Pp. 与 R, 之 间 重 要 度 的 平衡 系数 ，m 和 分 别 


les 


为 系统 摘要 和 参考 摘要 包含 的 语句 数目 。 
ROUGE-S 表示 基于 长 度 顺 序 子 序列 的 共 现 率 统计 ， 其 准 
确 率 Paro AER Raro FIE F oa 的 计算 公式 分 别 为 


a pair(x, y) 20) 
"" —Comp(n2) 

pu ur Q1) 
pair Comp(m, 2) 


2 
E a * pb )R pair Ppair 


Fap ~ 2 Q2) 
R pair * p Pa 
一 、 B" Pair > Hr 
其 中 : pair(x, y) 表示 词 对 (x y) 共 现 匹配 的 数量 ， 8 — 7-296 
pair 


量 P,,, 与 Rj 之 间 重 要 度 的 平衡 系数 ，Comp(m,2) 表示 系统 摘 
要 中 词 对 的 组 合 数 ，Comp(n,2) 表示 参考 摘要 中 词 对 的 组 合 数 。 
2.3 主题 概念 覆盖 率 分 析 
2.3.1 事实 过 滤 算 法 中 W step, Y. n 的 取 值 

从 理论 上 来 说 ,滑动 窗口 值 W 、 滑 动 步 长 step 的 取 值 越 大 ， 
可 利用 的 三 元 组 实例 的 上 下 文 信息 就 越 多 。 但 本 文 所 提出 的 模 
型 主要 关注 于 滑动 窗口 内 的 三 元 组 实例 的 语义 兼容 性 特征 。 
此 ， 如 果 上 述 参数 设置 过 大 ， 反 而 会 使 三 元 组 实例 集合 整体 的 
语义 兼容 性 降低 ， 同 时 也 会 影响 模型 的 运行 效率 、 造 成 资源 的 
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表 2 事实 过 滤 算 法 中 参数 的 最 佳 取 值 
Table 2 Best parameters in fact filtering algorithm 
滑动 窗口 值 滑动 步 长 比例 系数 比例 系数 
W=1/4n,. step =1/2 w y =0.8 9-02 


23.2 iJ US E EE 
根据 本 文 L1 节 的 式 (1)， 计 算 实验 所 设置 的 五 个 主题 中 
的 不 同 候选 主题 词 对 于 主题 的 影响 程度 ， 在 每 个 主题 下 选择 前 
200 个 具有 高 TF-IDF 值 的 概念 作为 主题 概念 , 并 以 表 3 中 所 述 
特征 ， 通 过 随机 森林 算法 训练 得 到 一 个 二 分 类 器 ， 通 过 二 分 类 
器 计算 由 本 文 模型 所 构建 的 概念 图 中 每 个 概念 的 Gini 系数 。 当 
概念 的 Gini 系数 大 于 5 时 ， 则 判定 其 为 主题 概念 ， 否则 判定 其 
为 非 主题 概念 。 通 过 训练 使 模型 的 准确 率 达 到 92.3%。 此 时 算 
法 参数 设置 如 下 : 阔 值 5=0.5， 松 念 图 中 的 三 元 组 实例 的 总 数 
nn =20， 子 树 的 数量 n_estimators=50， 划 分 时 的 最 大 特征 数 
max features=6， 决 策 树 的 最 大 深度 max_depth=3， 内 部 节点 划 
分 所 需 最 小 样本 数 min_samples_splir4， 叶 子 节点 最 少 样本 数 
min samples leaf-2. 
表 3 随机 森林 算法 的 分 类 特征 


Table 3 Features used for random forests for classification 


特征 含义 取 值 范围 
Frequency 词 频 [0, 1] 
当前 概念 是 否 少 于 5 个 或 
Is MatchLength Oorl 


多 于 12 个 字符 


Is InAbstract 是 否 在 自动 抽取 式 摘要 07 中 出 现 


Oorl 


E 
是 否 满 足 premodifier+ headword+ 


Is MatchLanguagePattern Oorl 
postmodifier 的 英文 语言 模式 
Is NER 是 否 为 命名 实体 0 0or1l 
当前 概念 的 同义词 占 概念 图 中 
Synonyms [0, 1] 
所 有 概念 的 比例 
在 实验 设置 的 五 个 主题 下 ， 根 据 不 同 的 文档 数据 规模 N 


(Di, Dj» Dj; Di» Di» Dj» Di» Di» I&isSieN' D 
De 的 变化 情况 如 图 1 所 示 。 

从 图 1 中 可 以 看 出 ， 在 不 同 主题 下 ， 随 着 文档 数据 规模 的 
增加 ， 主 题 概念 的 覆盖 率 均 呈现 下 降 的 趋势 ， 其 主要 原因 是 医 
为 文档 数量 的 增加 使 得 主题 信息 分 布 的 离散 程度 变 大 ，OLLIE 


浪费 ， 如 果 参 数 的 值 设置 过 小 ， 很 有 可 能 获取 不 到 足够 多 的 有 


y 值 决定 了 语义 相关 性 因素 在 衡量 两 个 三 元 组 实例 的 语义 
兼容 中 时 所 占 的 比例 ，7 值 决定 了 字面 相似 度 因素 在 衡量 两 个 
三 元 组 实例 的 语义 兼容 性 中 所 占 的 比例 ， 并 且 y+7 -1。 
在 事实 过 滤 算 法 中 ， 对 所 有 结果 进行 统计 分 析 ， 发 现 表 2 


系统 的 抽取 精度 也 有 所 下 降 , 在 DUC 标准 语 料 规模 D, - D, 下 ， 
综合 来 看 ， 本 文 模型 能 够 保留 住 84% 的 主题 信息 ， 说 明 模 型 的 
精度 和 泛 化 能 力 较 好 。 对 于 不 同 的 主题 ， 由 于 其 下 所 包含 的 文 
档 的 大 小 、 候 选 主题 词 的 粒度 均 有 所 不 同 ， 例 如 在 “美国 总 统 
选举 ”主题 下 ， 其 所 包含 的 单 文档 大 小 、 候 选 主题 词 个 数 均 为 
RZ, ED 规模 下 ，C,，， 达 到 了 9296. 在 最 大 数据 集 规模 D， 


theme 


中 的 参数 取 值 可 使 抽取 的 三 元 组 实例 集合 的 语义 兼容 性 达到 最 
用 户 指定 的 概念 图 中 的 三 元 组 实例 的 个 数 ; 
step 的 取 值 依赖 于 滑动 窗口 值 w o 


fp Xn Xu 
auk 


> Cune 为 80%。 相 比 之 下 ,“ 中 苏 合作 ”主题 下 的 单 文 档 大 
小 与 候选 主题 词 个 数 均 为 最 少 , 在 D, 规模 下 , C, 达到 了 84%; 
在 D, 规模 下 ， 


C, 下降 到 了 68%。“ 伊 朗 核 问题 ”主题 与 “大 
众 汽车 丑闻 ”主题 下 所 包含 的 文档 信息 最 为 类 似 ，C,。。 随 文档 


theme 
theme 


规模 N 的 变化 情况 也 极为 类 似 , 由 此 说 明 本 文 模型 与 上 述 两 个 
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因素 具有 较 强 的 相关 性 ， 在 文档 数据 规模 为 DUC 标准 语 料 规 统 选 举 ” 主 题 下 ， 最 大 强 连通 分 量 中 的 主题 概念 覆盖 率 达 到 T 
模 ， 候 选 主题 词 数量 足够 多 的 情况 下 ， 基 于 当前 的 分 类 器 ， 模 84%, 基本 接近 于 概念 图 在 当前 数据 规模 下 的 主题 概念 覆盖 率 ， 


型 能 够 发 挥 最 好 的 性 能 。 说 明 本 文 模型 在 该 主题 下 的 连通 效果 达到 最 佳 状态 。 
o de5 概念 图 连通 性 分 析 结 果 
| Table 5 Analysis results of connectedness of conceptual graphs 
im | 主题 名 称 ” 强 连通 分 量 最 大 强 连 通 分 量 置信 度 比 主题 概念 覆盖 率 
i | 叙利亚 战争 危机 2 82.3% 0.72 
2n P BHAA iel 4 32.6% 0.68 
= 叙利亚 战争 危机 PERIA 大 众 汽车 丑闻 ”美国 总 统 选举 中 苏 合 作 大 众 汽车 丑闻 2 us PM 
mDi mD2 mD3 mD4 NDS MD6 ND7 NDS 美国 总 统 选举 2 9296 0.84 
图 1 主题 概念 覆盖 率 在 不 同文 档 数 据 规模 下 的 变化 情况 中 苏 合作 4 36.2% 0.64 
Fig.l Variations ofa coverage rate of topic concepts in documents with 2.5 概念 图 可 读 性 分 析 
different scales 一 个 有 效 的 概念 图 除了 需要 涵盖 足够 多 的 主题 信息 外 ， 还 
2.4 概念 图 连通 性 分 析 应 具备 良好 的 可 读 性 。 为 了 验证 根据 本 文 模型 所 得 到 的 概念 图 


针对 实验 设置 的 五 个 主题 ， 发 现 通过 事实 过 滤 算 法 而 得 到 ”中 主题 概念 间 的 语义 兼容 度 以 及 概念 图 整体 的 信息 可 读 性 。 本 
的 概念 子 图 集合 中 平均 只 有 47% 的 三 元 组 实例 易于 连接 ， 即 它 实验 以 文本 摘要 的 评测 指标 ROUGH 作为 评估 标准 , 根据 2.3.2 
们 的 头 概念 或 尾 概念 中 至 少 有 一 个 具有 相同 的 形式 。 因 此 ， 对 。 ”小节 的 分 析 结 果 ， 从 主题 覆盖 率 最 高 的 “美国 总 统 选举 ”主题 
等 价 概念 以 及 关系 的 判定 、 标 注 工作 将 直接 影响 最 终 所 生成 的 。 ”下 选择 D+ 规模 的 文档 数据 生成 概念 图 ， 其 中 事实 过 滤 算 法 中 
概念 图 的 连通 性 。 本 实验 以 DUC 标准 语料库 规模 为 参照 ， 根 。 的 参数 设置 如 下 ， n =20, y, n> step, w 选取 最 佳 取 值 。 
据 本 文 模型 选择 D; (1<i<5,ieN' ) 规模 的 数据 生成 概念 图 ， 为 使 生成 的 概念 图 满足 摘要 的 形式 ， 两 个 概念 标注 者 需 将 
其 中 事实 过 滤 算法 中 的 参数 设置 如 下 ;mu 720. y. n. sep. ”概念 图 中 的 事实 信息 的 顺序 依次 进行 调整 (Kappa=0.89), 最 终 
W 选取 最 佳 取 值 ， 分 析 的 结果 如 表 4 所 示 。 与 此 同时 ， 采 用 ”形成 摘要 。 对 于 上 述 规模 的 文档 数据 集 ， 依 靠 领域 专家 进行 分 
由 取 式 摘 要 的 方法 显然 是 不 现实 的 。 因 此 ， 首 先 


» 


Robert Tarjan 提出 的 Tarjan 算法 检查 所 生成 的 概念 图 的 强 连 通 析 ， 总 结 生成 
性 ， 分 析 结 果 如 表 5 所 示 。 将 实验 中 的 所 有 文档 做 共 指 消解 处 理 ， 以 进一步 提高 语 料 的 可 
表 4 概念 子 图 分 析 结 果 里 解 性 ; 然后 , 通过 文献 [20] 中 提出 的 经 典 抽取 式 摘 要 算法 生成 
Table 4 Analysis results of conceptual subgraphs 标准 摘要 ， 最后， 将 生成 摘要 与 标准 摘要 进行 比较 ， 评 测 结 果 
主题 名 称 ”概念 子 图 数 等 价 概念 对 新 的 语义 关系 标签 Kappa ffi 如 表 6 所 示 。 
叙利亚 战争 危机 3 10 3 0.81 表 6 ROUGE 标准 评测 比较 
伊朗 核 问 题 4 3 2 0.86 Table 6 Comparison results in ROUGE criteria 
大 众 汽车 丑闻 3 5 3 0.83 评测 标准 Avg Precision Avg Recall Avg Fl 
美国 总 统 选 举 3 11 3 0.88 ROUGE-2 0.643 0.438 0.521 
中 苏 合 作 5 4 3 0.84 ROUGE-L 0.517 0.259 0.346 
从 分 析 结 果 可 以 看 出 ， 每 个 主题 下 平均 拥有 三 个 以 上 的 概 ROUGE-S 0.344 0.384 0.362 
念 子 图 需要 进行 处 理 ， 并 且 这 些 子 图 大 多 为 强 连通 图 ， 同 从 比较 结果 来 看 , ROUGE-2 标准 的 准确 率 最 高 , 说 明 通 过 
时 专家 标注 者 在 进行 关系 合成 时 表现 出 了 较 好 的 一 臻 性， 说明 本 文 模型 提取 得 到 的 事实 信息 具有 良好 的 文本 覆盖 率 ， 并 且 能 


本 文 模型 在 保证 概念 图 的 总 体 连通 性 方面 表现 较 好 。 最 大 强 连 。 ”体现 出 一 定 的 顺序 特征 ， 满 足 可 读 性 的 基本 要 求 。 但 是 对 于 
通 分 量 置 信和 度 比 指 的 是 最 大 强 连通 分 量 中 三 元 组 实例 的 置信 和 度 ROUGE-L 与 ROUGE-S 标准 , 本文 模型 表现 较为 一 般 , 其 主要 
C 
AX 


信 度 以 OLLIE 系统 的 抽取 结果 为 依据 ) 的 总 和 占 合成 的 概 ” 原因 是 因为 受 限于 上 述 文档 数据 规模 以 及 OLLIE 抽取 系统 本 
念 图 中 所 有 三 元 组 实例 置信 度 的 比例 。 该 比例 越 高 ， 说 明 强 连 身 的 噪声 ， 模 型 很 难 反 映 出 句子 级 别 的 事实 顺序 特征 。 
通 分 量 的 事实 表达 能 力 越 强 ， 合 成 的 概念 图 的 总 体 连通 效果 越 2.6 模型 运行 时 间 分 析 
好 。 例如,“ 美国 总 统 选 举 ” 主 题 与 “大 众 汽车 丑闻 ”主题 下 虽 本 实验 以 DUC 标准 语料库 规模 为 参照 ， 根 据 2.3.2 小 节 的 
然 具 有 相同 的 强 连 通 分 量 个 数 ， 但 是 由 于 后 者 中 的 最 大 强 连 通 分析 结 果 ， 从 主题 覆盖 率 最 高 的 “美国 总 统 选 举 ” 主 题 下 选择 
量 置 信 度 比较 低 ， 只 有 10%〔 即 包含 相互 连通 且 具 有 较 强 事 
实 表达 能 力 的 三 元 组 实例 的 数量 较 少 ), 说明 其 总 体 连通 效果 不 
如 前 者 。 最 大 强 连通 分 量 中 的 主题 概念 覆盖 率 表 示 主 题 概念 在 图 , 其 中 事实 过 滤 算 法 中 的 参数 设置 如 下 : n, 720. y. m. 
概念 图 连通 分 量 中 的 分 布 情况 ， 与 其 他 主题 相 比 ， 在 “美国 总 seps w 选取 最 佳 取 值 。 将 模型 中 的 文档 排序 、 概 念 及 关系 抽 


不 同 规模 的 文档 数据 集 N CD! e N ，1< j<8, jeN* ) ERM 
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取 、 事 实 过 滤 、 合 并 等 价 概念 及 关系 四 个 主要 任务 简 记 为 任务 。” 依存 关系 实现 三 元 组 实例 的 抽取 。 
1、2、3、4， 分 析 不 同 任务 的 平均 运行 时 间 在 当前 文档 数据 集 4) 文献 [24] ”主要 采用 基于 Adaboost 和 迭代 算法 的 协同 训 
上 的 变化 情况 ， 如 表 7 所 示 。 练 方法 对 关系 抽取 模型 进行 强化 ， 以 缓解 三 元 组 实例 含有 噪声 
表 7 本 文 模型 在 不 同 任务 上 的 平均 运行 时 间 比 较 /s 和 错误 的 问题 。 其 中 ， 文 本 语句 中 的 实体 标记 工作 依赖 于 
Table 7 Comparison of mean running time ofour model for Stanford CoreNLP 系统 。 
different tasks /s 5) 文献 [25] 主要 通过 远程 监督 (distant supervision ) 实体 
文档 数据 集 N 任务 1 任务 2 任务 3 任务 4 关系 抽取 方法 , 利用 freebase 知识 库 和 wikipedia 文本 库 自 动 获 
D: 43.3 61.5 90.4 79.7 取 关 系 抽取 训练 数据 ， 并 训练 模型 实现 实体 关系 抽取 任务 。 其 
Di 59.2 91.6 1312 87.7 中 , 文本 语句 中 的 实体 标记 工作 依赖 于 Stanford CoreNLP 系统 。 
Di 79.5 139.6 181.6 87.9 6) 本文 方法 (未 做 共 指 消解 处 理 )( 可 简 记 为 MDCGCVI) 
Di 98.6 170.7 228.9 87.4 基于 本 文 模型 框架 构建 概念 图 ， 但 是 在 处 理 单 篇 文档 时 ， 并 未 
Di 113.5 203.1 267.6 86.6 对 其 中 的 共 指 代词 做 消解 处 理 。 
Di 1374 2284 303.3 87.7 7) 本文 方法 (未 做 事实 过 滤 处 理 )( 可 简 记 为 MDCGCV2) 
Dj 154.6 250.7 349.6 89.6 基于 本 文 模型 框架 , 将 OLLIE 的 抽取 结果 直接 输入 等 价 概念 及 
D; 171.9 273.6 387.7 87.1 关系 合并 的 任务 ， 进 而 构建 概念 图 。 
从 表 7 中 可 以 明显 看 出 ， 基 于 上 述 主题 ， 本 文 模型 在 任务 由 表 8 中 的 比较 结果 可 以 看 出 ， 本 文 提出 的 模型 分 别 以 


3 上 的 计算 消耗 是 最 多 的 ， 平 均 占据 了 模型 运行 时 间 的 60%， 84.0% 的 主题 概念 覆盖 率 、94.7% 的 事实 知识 兼容 性 以 及 0.474 
究 其 原因 主要 是 因为 在 该 任务 中 需要 通过 ADW 模型 7 计算 当 HJ ROUGE F1 值 优 胜 于 其 他 对 比方 法 ， 说 明了 该 模型 在 构建 高 
前 滑动 窗口 内 的 三 元 组 实例 的 语义 兼容 性 ，ADW 模型 依赖 于 ”质量 概念 图 上 的 有 效 性 。 
WordNet 庞大 的 词典 来 获得 概念 所 对 应 的 语义 指纹 信息 ， 导 致 表 8 代表 性 算法 的 实验 结果 比较 


计算 效率 显著 降低 ; 任务 1 的 运行 时 间 主 要 取决 于 文档 数据 的 Table 8 Comparison of experimental results for representative algorithms 
质量 ， 总 体 来 说 ， 由 于 本 实验 选取 的 文档 数据 集 具 有 较 高 的 主 主题 概念 覆 等 价 概念 对 新 的 语义 关系 标 强 连通 分 量 事实 知识 的 ROUGE- 
BUE GAS, 所 以 在 该 任务 上 的 运行 时 间 并 不 会 因 N 的 增加 而 产 a HEA ”数量 hn 签 数量 EU EAE%  2/F1 
生 跳 跃 式 变动 ; 任务 2 主要 取决 于 OLLE 系统 的 性 能 ， 其 运行 本 文 方法 840 10 3 3 94.7 — 0474 
时 间 随 N 的 增加 呈现 稳定 的 增长 ; 任务 4 的 运行 时 间 基 本 保持 文献 [21] 70.4 6 5 6 79.2 0.346 
稳定 。 文献 22] 80.6 7 5 5 92.1 0.372 
随 着 文档 数据 规模 的 增长 ， 本 文 模型 在 各 个 任务 上 的 运行 文献 [23] 81.6 8 3 3 9L6 0470 
时 间 随 任务 的 计算 复杂 度 O(n) 呈 线 性 增长 , 当 文 档 数据 规模 达 文献 [24] — 72.8 9 7 5 87.6 0.442 
到 Dt 时 , 其 运行 时 间 并 没有 出 现 跳跃 式 增长 , 依然 保持 在 用 户 文献 [25] 78.4 10 5 5 91.7 0.348 
可 接受 的 范围 之 内 。 综 上 所 述 ， 本 文 模型 运行 稳定 ， 在 适应 数 ”MDCGCV1 — 640 15 9 7 42.3 0.122 
据 增 长 方面 具有 良好 的 性 能 。 MDCGCV2 672 8 8 9 44.2 0.146 
2.7 ”对 比 算法 分 析 文献 [21] 模 型 主要 利用 句子 的 语言 结构 信息 来 抽取 三 元 组 


本 实验 以 DUC 标准 语料库 规模 为 参照 ， 选 择 D, 规模 的 文 。 实例 。 在 主题 概念 覆盖 率 指标 上 , 与 本 文 模型 相差 10 个 左右 的 
档 数据 (其 中 包含 五 个 主题 文档 集合 , 即 D;，1<i<5, ieN+ ) 百分点 , 其 主要 原因 在 于 是 本 文 模型 所 使 用 的 OLLIE 算法 能 够 
进行 测试 分 析 ， 将 本 文 模 型 与 代表 性 方法 进行 对 比 ， 给 出 它们 ”更 好 地 解决 语句 长 程 依赖 问题 , 其 精度 相对 较 高 ; 而 文献 [21] 模 
在 主题 概念 覆盖 率 、 等 价 概念 对 数量 .新 的 语义 关系 标签 数量 、 型 受到 抽取 精度 的 影响 ， 其 在 事实 知识 的 兼容 性 指标 上 的 值 为 
强 连通 分 量 个 数 、 事 实 知识 的 兼容 性 等 六 个 测试 指标 上 的 平均 79.2%， 在 ROUGE-2 标准 下 的 Fl 值 为 0.346. 
值 ， 对 比 结果 如 表 S 所 示 。 其 中 ， 抽 取 事 实 知识 的 语义 兼容 性 文献 [22] 模 型 的 缺陷 主要 可 归结 于 两 个 方面 : a) 单纯 使 用 
可 通过 式 (11) 进行 计算 。 文献 [20] 可 视 为 抽取 式 摘要 中 的 典型 ” 主 谓 宾 句 法 关系 进行 三 元 组 实例 的 抽取 ， 对 于 长 句 的 解析 存在 
方法 ， 其 主要 通过 单调 亚 模 函数 建立 目标 函数 ， 将 多 文档 中 主 。 一 些 问 题 ,b) 过 度 依赖 于 正确 的 分 词 结果 。 文 献 [23] 模 型 在 文 
干 语句 的 选择 转换 为 优化 问题 ,然后 利用 贪 禁 算法 求 得 最 优 解 ， 献 [22] 模 型 的 基础 上 ， 对 句法 结构 中 的 依存 关系 进行 识别 与 分 
且 取得 了 较 好 的 性 能 。 本 实验 将 通过 该 方法 生成 标准 摘要 。 析 。 从 实验 结果 来 看 ， 其 整体 性 能 优 于 前 者 ， 主 题 概 念 的 覆盖 
1) 文 献 [21] Stanford OpenIE 模型 是 OIE(open information — 率 达 到 了 81.6%。 文 献 [22] 和 [23] 两 个 模型 在 事实 知识 的 兼容 性 
extraction， 开 放 式 信息 抽取 ) 中 的 代表 方法 。 指标 上 均 超过 了 90%， 由 此 也 可 以 看 出 以 句法 分 析 为 基础 ， 本 
2) 文献 [22] 主要 采用 主 谓 宾 句法 关系 来 抽取 三 元 组 实例 。 文 所 提出 的 事实 过 滤 算 法 的 有 效 性 。 
3) 文献 [23] ”基于 分 句 依存 关系 局 部 性 假设 ， 主 要 依赖 于 文献 [24] 模 型 主要 采用 基于 Adaboost 迭代 算法 的 协同 训练 


Jw, 


方法 对 关系 抽取 模型 进行 强化 ， 在 一 定 程度 上 能 够 缓解 三 元 组 


实例 的 噪声 问题 ， 但 对 于 本 实验 语 料 中 同一 主题 下 的 知识 单元 
于 分 散 、 语 料 完 备 性 较 差 等 问题 ， 该 模型 的 表现 能 力 仍然 有 


限 ， 在 概念 覆盖 率 指标 上 的 值 为 72.8% 。 
文献 [25] 模 型 采用 远程 监督 的 方法 实现 关系 抽取 任务 ， 然 
而 其 在 主题 概念 的 覆盖 率 指标 上 的 值 为 78.4%, 
要 是 因为 : a) 该 方法 在 标注 数据 的 获取 过 程 中 ,主要 借助 于 以 
下 假设 :所 有 包含 实体 对 的 句子 都 蕴涵 了 两 者 之 间 潜 在 的 关系 ， 
而 本 实验 所 提供 的 文本 语 料 并 不 完备 ， 未 能 较 好 地 支持 上 述 假 
设 ; b) 在 本 实验 的 语 料 中 , 对 于 未 指定 的 关系 类 型 9 未 能 实现 
较 好 的 标注 ;c) 训 练 数据 的 样本 过 少 , 该 模型 的 性 能 受到 制约 。 

MDCGCV1 模型 并 未 对 单 篇 文档 中 的 共 指 代词 做 消解 处 理 ， 
导致 : a) 指 代 不 清 或 无 效 的 三 元 组 实例 的 数量 显著 增加 ; b) 
抽取 到 的 事实 知识 的 可 读 性 较 差 ; c) 受到 事实 知识 中 语义 单元 
模糊 性 的 影响 ,通过 事实 过 滤 算 法 而 产生 的 三 元 组 实例 出 现 “ 假 
兼容 ”的 现象 .因此 , 该 模型 的 平均 主题 概念 覆盖 率 只 有 64.0%; 
事实 知识 的 兼容 性 只 有 42.3%， 低 于 所 有 方法 中 该 项 指标 的 平 


O 


均值 。 MDCGCV2 模型 中 , 由 于 OLLIE 模型 的 抽取 结果 未 经 过 
事实 过 滤 流 程 ， 受 该 模型 本 身 精 度 以 及 误差 传播 的 影响 ， 无 信 
息 量 或 元 余 的 三 元 组 实例 无 法 得 到 有 效 的 处 理 , MDCGCV2 模 


e 

eo 

二 一 型 的 主题 概念 覆盖 率 以 及 事实 知识 的 兼容 性 分 别 为 67.296 

= 442%. 

co 

— 3 结束语 

e 

ON 为 了 解决 主题 信息 跨 文档 分 布 ， 用 户 难以 从 中 控 气 并 组 织 

CT 核心 概念 以 及 语义 连接 的 问题 ， 本 文 提出 了 一 个 基于 开放 域 抽 

DC 取 的 多 文档 概念 图 构建 模型 为 了 验证 模型 的 有 效 性 , 在 Signal 

£ Media 发 布 的 真实 新 闻 数 据 集 上 就 主题 概念 覆盖 率 、 概 念 图 连 

codi 概念 图 可 读 性 、 模 型 运行 时 间 以 及 对 比 算法 五 个 方面 进 

O 行 了 实验 验证 ， 实 验 结果 表明 ， 本 文 提出 的 概念 图 构建 模型 能 
够 跨 文 档 挖掘 并 组 织 与 特定 主题 相关 的 关键 信息 ， 并 通过 概念 


D 


图 表现 其 中 显著 的 实体 、 概 念 ， 以 及 它们 之 间 的 关系 。 概 念 
在 主题 概念 覆盖 率 、 事 实 知识 的 兼容 性 等 指标 上 均 取 得 了 较 好 
的 效果 ; 除 此 之 外 ， 其 对 于 自动 文档 摘要 的 应 用 也 有 具有 重要 的 
参考 价值 。 但 是 本 文 模型 仍 存在 一 定 的 局 限 性 ， 如 概念 及 关系 
的 抽取 任务 主要 依赖 于 开放 域 抽取 系统 OLLIE、 抽 取出 的 三 元 
组 实例 含有 较 大 的 噪声 。 除 此 之 外 ，OLLIE 仅 限 于 英文 文本 ， 
E 法 应 用 于 结构 复杂 且 包 含 多 语义 概念 的 中 文 文本 语 料 。 因 此 ， 
下 一 步 将 尝试 将 语义 依存 分 析 引 入 到 本 研究 中 ， 从 文档 的 主题 
句 中 更 加 精准 地 提取 主题 词 对 以 及 它们 之 间 的 语义 关系 ， 并 党 
试 进一步 扩大 本 文 模型 的 适用 范围 。 
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